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摘 要 : 目前 ， 人 工 智 能 快速 发 展 ， 人 们 可 以 通过 探索 硬件 设计 空间 使 优秀 的 神经 网 络 算法 高 效 部 署 在 FPGA 加 速 
器 。 然 而 ， 由 于 参数 量 大 、 操 作 过 于 复杂 而 导致 算法 与 硬件 难以 匹配 ， 加 速效 率 不 高 。 为 了 算法 和 硬件 二 者 匹配 性 

更 强 ， 提 出 了 一 种 多 层次 协同 搜索 的 方法 ， 采 用 SPOS 搜索 策略 并 以 检测 准确 率 和 延 时 为 评估 目标 ， 搜 索 出 最 优 神 
经 网 络 架 构 、 量 化 方式 和 硬件 设计 参数 组 合 。 该 方法 应 用 在 姿态 识别 中 具有 优异 性 能 的 沙漏 网 络 中 ， 在 获取 候选 子 
网 络 量化 前 、 后 的 检测 准确 牵 的 同时 对 硬件 设计 参数 使 用 遍历 搜索 得 到 预 估 延 时 ， 根 据 目 标 函 数 获取 最 高 得 分 的 最 
优 组 合 。 为 了 保证 获取 的 数据 有 效 性 ， 子 网 络 需要 进行 重新 训练 、 量 化 后 重新 推理 得 到 检测 准确 率 ， 获 取 硬 件 设计 
参数 则 利用 基于 Spinal HDL 设计 的 加 速 器 模板 进行 仿真 测试 得 到 测试 延 时 。 就 平均 而 言 ， 该 方法 比 文献 [1] 减 少 了 
83.3% 的 参数 ， 准 确 率 只 下 降 了 0.69; 比 传统 加 速 方法 平均 减少 了 33.2% 参 数量 ， 准 确 率 只 下 降 了 O46, 网 络 推理 的 
测试 总 延 时 减少 22.1%， 在 沙漏 块 的 测试 延 时 减少 67.8%。 总 体 而 言 ， 该 协同 搜索 方法 对 于 沙漏 网 络 的 优化 有 一 定 

效果 ， 比 传统 加 速 设计 方法 更 有 优势 。 
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Multi-level co-exploration method based on hourglass network 


Chen Guirong, Qiu Zhongyu, Su Tao', Chen Dihu 
(School of Electronics & Information Technology, Sun Yat-Sen University, Guangzhou 510006, China) 


Abstract: At present, with the rapid development of AI, people can efficiently deploy excellent neural network algorithms on 
FPGA accelerators by exploring the hardware design space. However, due to the large amount of parameters and complex 
operation, it is difficult to match the algorithm with the hardware, and the acceleration efficiency is low. In order to better 


i match the algorithm and hardware, this paper proposed a multi-level co-exploration method, adopted SPOS search strategy, 
3 hs aimed at accuracy and latency, to obtain the optimal neural network architecture, quantization method and hardware design 


combination. It applied the method to hourglass network which have high accuracy in pose estimation. While obtained the 
pe" accuracy before and after quantization of candidate sub networks, it used traversal method to search hardware design 
r parameters and obtain the estimated latency, and then got the optimal combination with the highest score according to the 
target function. In order to ensure the effectiveness of the obtained data, it retrained the sub network, then quantified and 


inferenced again to obtain the accuracy. It simulated the obtained hardware design parameters to get the testing latency, using 
C the accelerator template designed based on Spinal HDL. On average, Co-exploration method reduced the parameters by 83.3% 
: and with only 0.69 accuracy loss compared with the original structure; reduced the parameters by 33.2%, with only 0.46 
accuracy loss, reduced the total testing latency of network inference by 22.1% and reduced the testing latency in hourglass 
block by 67.8% compared with the traditional acceleration method. Overall, the co-exploration method in this paper has a 
certain effect on the optimization of hourglass network, and it has more advantages than the traditional acceleration method. 
Key words: neural network; FPGA; co-exploration; hourglass network; latency model 


0 ”引言 在 二 维 姿态 识别 领域 中 ， 存 在 很 多 较为 优秀 的 算法 

F [1,6~9]。 以 PCKh@0.5 的 值 作为 检测 准确 率 衡 量 指标 ， 文 献 
随 着 人 工 智 能 快速 发 展 ， 姿 态 估 计 是 计算 机 视觉 领域 的 [] 的 沙漏 网 络 检测 准确 率 是 90.9， 但 是 其 参数 量 有 25.1M; 
主要 研究 方向 之 一 ， 在 很 多 领域 有 着 重要 研究 价值 和 应 用 前 ” ”文献 [7] 的 SimpleBaselines 准确 率 是 91.5, 虽然 采用 简单 有 效 
景 。 堆 大 式 沙漏 网 络 山 在 二 维 姿态 估计 算法 中 , 表现 优异 ， 的 结构 ， 但 是 其 参数 量 高 达 68.6M; 文献 [8] 的 HR Net 其 检 
前 很 多 算法 都 是 基于 沙漏 网 络 的 变 体 P31, 但 是 设计 者 的 初衷。 ” 测 准确 率 是 92.3， 但 是 其 参数 量 也 有 28.5M 之 多 ,而且 参数 


Jr 


更 多 是 考虑 其 检测 准确 率 ， 而 该 网 络 模型 复杂 、 参 数量 大 在 ” 均 为 浮 点 数 。 这 些 优秀 的 算法 无 论 是 在 整体 网 络 的 实现 过 程 
边缘 计算 加 速 推理 方面 有 很 大 的 挑战 。 目 前 在 边缘 加 速 方面 ， 还 是 参数 量 ， 在 边缘 加 速 的 实现 过 程 都 是 巨大 的 挑战 ， 难 以 
大 都 是 预先 有 算法 网 络 结构 ， 然 后 基于 该 固定 结构 进行 加 速 ” ”匹配 到 硬件 进行 加 速 。 

推理 ， 却 缺乏 对 于 算法 、 硬 件 等 多 方面 协同 设计 的 方法 ， 因 近年 来 ， 科 研 团队 在 神经 网 络 算法 、 压 缩 量 化 、 硬 件 设 
此 存在 高 准确 率 算法 却 难以 匹配 到 硬件 进行 加 速 推理 的 问题 。 计 等 方面 的 性 能 提升 作出 很 大 的 贡献 。 首 先 为 了 实现 提高 神 
[5]， 所 以 在 加 速 计算 方面 仍 有 改进 的 空间 。 经 网 络 的 性 能 这 一 目标 ， 很 多 研究 人 员 采 用 神经 网 络 架构 搜 
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dg U0-lmeural network architecture search, NAS) 这 种 先进 的 方 
法 , 从 人 工 调 参 的 繁琐 工作 中 脱离 出 来 ,文献 [11] 提 出 了 NAS 
Net, 设计 一 个 新 颖 的 搜索 空间 ,并 使 用 强化 学 习 优 化 方法 提 
高 了 搜索 性 能 。 文献 [12] 引 入 ENAS, 利用 权重 参数 共享 方法 
提升 了 NAS 的 效率 ，GPU 运算 时 间 缩短 了 1000 倍 以 上 。 文 
献 [14] 提 出 了 One-Shot 的 方法 ， 通 过 训练 一 个 超 网 络 作为 辅 
助 模型 ， 整 体 搜索 速度 很 快 。 其 次 ， 为 了 减少 神经 网 络 的 参 
数 ， 加 快 神经 网 络 推理 ， 不 少 科 研 人 员 在 量化 方面 取得 很 好 
的 进展 05。 文 献 [16] 将 网 络 权 值 二 值 化 让 计算 主要 在 正 1 或 
fa 1 间 进 行 ， 降 低 了 网 络 大 小 和 计算 量 。 文 献 [17] 将 推断 过 
程 中 的 浮 点 数 运算 量化 为 整数 运算 ， 最 终 将 权重 和 激活 函数 
化 为 8 位 。 文 献 [18] 采 用 混合 精度 量化 方式 以 找到 合适 的 
量化 位 宽 ， 实 现 降 低能 耗 的 目标 。 为 了 能 更 快 的 实现 神经 网 
各 推理 ， 在 加 速 器 硬件 设计 中 有 很 多 地 方 值得 关注 ， 如 处 理 
元 (Process element，PE) 数 目 、 并 行 度 、 数 据 流 复 用 方式 等 
等 ， 目 前 设计 人 员 在 这 些 方面 做 了 很 多 探索 。 文 献 [19] 利 用 
Roofline 模型 对 卷 积 神经 网 络 (Convolution Neural Network, 
CNN) 加 速 器 数据 流 技 术 的 设计 空间 探索 , 探索 不 同 数 据 流 复 
用 方式 的 性 能 。 文 献 [20] 在 探索 了 PE 的 利用 率 和 并 行 度 ， 实 
现 了 性 能 的 大 幅度 提升 。 文 献 [21] 提 出 了 一 种 加 速 器 架构 可 
以 进行 卷 积 层 间 流水 ， 在 输出 特征 图 数 、 宽 度 和 高 度 三 个 维 
度 
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进行 展开 实现 并 行 化 计算 的 。 然 而 这 些 工作 都 是 从 单一 
出 发 ， 例 如 从 算法 准确 率 、 硬 件 参 数量 、 硬 件 设 计 方 法 等 
单一 优化 ,并 未 协同 考虑 进行 共同 优化 , 以 便 获 取 最 优 性 能 。 
在 多 目标 协同 搜索 和 硬件 感知 搜索 捕 ?1822 -30 相关 研究 
越 来 越 多 ， 设 计 者 不 仅 考虑 算法 层面 的 准确 率 而 且 考虑 很 多 
硬件 性 能 ， 如 功 耗 、 耗 时 、 面 积 、 资 源 利用 等 等 。 文 献 [4] 考 
虑 了 层 和 数据 流 复 用 模式 之 间 的 适应 性 ， 选 择 最 合适 的 数据 
流 复 用 模式 , 高 效 部 署 所 搜索 的 网 络 。 文 献 [24] 利 用 强化 学 习 
方法 搜索 ， 搜 索 空 间 包 括 算法 架构 、 混 合 精度 量化 方式 等 ， 
并 建立 延 时 模型 和 能 耗 约 束 ， 实 现 能 耗 和 延 时 的 下 降 。 文 献 
[29] 定 义 了 一 个 新 的 硬件 搜索 空间 ， 在 目标 FPGA 平台 上 生 
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注 网 络 模型 的 准确 率 ， 因 此 各 种 NAS 工作 的 目标 是 
个 精度 更 高 的 网 络 结构 ， 然 而 硬件 设计 师 更 多 地 关注 


同时 保证 准确 率 损失 最 小 。 


HE 


的 性 能 ， 如 延 时 、 功 耗 等 ， 所 以 很 容易 出 现 算法 和 硬 
配 的 问题 。 多 层次 协同 方法 旨 在 优化 沙漏 网 络 的 推理 


确 率 的 获取 需要 候选 模型 对 验证 集 进 行 推理 ， 本 文 所 


有 的 准 


确 率 都 是 MPI 数据 集 特定 指标 值 PCKh@0.5。 在 利用 


MPI 数据 集 评估 时 ， 通 常 利 用 关节 点 正确 定位 百分比 


(percen 
准确 率 
置 间 的 
计算 公 


M, 


tage of correct keypoints，PCK) 评 估 人 体 关 节点 定位 的 


， 通常 记 为 PCK@k。 当 关键 点 i 的 预测 位 置 与 真实 位 
距离 di 小 于 头 部 长 度 Lhaed 一 定 比 例 k, 称 为 PCKh@k， 


式 如 下 。 
5 6 (d; < kLya )6(v; > 0) 


PCKh = — 
2 ,5 (wv;>0) 


k 的 值 为 0.5 时 ， 即 表示 为 PCKh@0.5。 


而 
以 用 以 


为 


文 提出 
搜索 过 


Acc,Q-Acc 为 候选 模型 量化 前 、 量 化 后 的 准 
证 量化 前 后 都 有 较 好 的 准确 率 。 这 里 准确 率 和 延 时 进 


要 是 保 


(1) 


网 络 推理 延 时 的 获取 是 使 用 数学 建 模 来 预测 ， 延 时 可 
下 式 (2) 来 描述 ， 延 时 模型 后 续 会 专门 进行 介绍 。 


Liota = Lee + Los cpip + Lott- chip 


Q) 


延 时 Liea 包括 计算 延 时 Leae ,片上 数据 移动 延 时 
Loop ， 片 外 内 存 访 问 延 时 Los- oup . 
了 更 好 评估 搜索 的 网 络 模型 和 加 速 器 的 设计 参数 ， 本 
一 个 目标 函数 ， 同 时 目标 函数 可 以 用 于 指导 整个 协同 


程 ， 如 式 (3) 所 示 


Score = (a*Acc + 8*Q. Acc + Y*Lia) (3) 


确 率 ,二 者 主 


行 归 
子 ， 根 


层次 协同 搜索 方法 框架 主要 包含 超 网 络 训 


成 具有 延 时 保证 的 最 优 神 经 网 络 模型 。 文 献 [30] 等 提出 了 一 
种 器 件 - 电 路 -架构 的 协同 探索 框架 , 包括 器 件 类 型 、 电 路 拓 才 
结构 和 神经 网 络 超 参数 等 实现 性 能 的 优化 。 但 是 这 些 工 作 基 
本 都 是 基于 图 像 分 类 ， 而 对 于 姿态 识别 、 沙 漏网 络 却 缺乏 该 
方面 的 研究 工作 。 
综 上 所 述 ， 在 姿态 识别 方面 ， 优 异 的 算法 缺乏 硬件 的 适 
配 性 ;在 网 络 优化 、 压 缩 、 硬 件 加 速 方面 却 更 多 的 考虑 单一 
性 能 优化 ; 在 多 目标 优化 的 协同 方法 中 缺乏 对 姿态 识别 方面 
的 研究 工作 。 而 神经 网 络 架构 搜索 方法 可 以 自动 探索 神经 网 
络 的 设计 优化 空间 ， 设 计 者 可 以 更 进一步 改变 网 络 结构 实现 
更 高 精度 。 与 此 同时 ， 设 计 者 还 可 以 将 其 他 硬件 端的 目标 作 
为 优化 对 象 。 这 些 方 法 很 好 的 解决 了 高 准确 率 算法 与 硬件 难 
以 匹配 的 问题 ， 可 以 以 很 低 的 精度 损失 实现 更 简便 的 方式 进 
行 高 速 推 理 。 
本 文 兼顾 检测 准确 率 和 延 时 提出 了 一 种 面向 姿态 识别 的 
沙漏 网 络 多 层次 协同 搜索 方法 ， 充 分 探索 算法 和 硬件 设计 等 
方面 的 优化 空间 ， 主 要 的 贡献 有 : 针对 沙漏 网 络 的 结构 ， 提 
出 了 算法 、 压 缩 量 化 、 硬 件 设计 等 方面 的 协同 优化 方法 ， 以 
低 准 确 率 损失 实现 了 性 能 较 大 的 提升 ; .建立 了 一 个 接近 加 速 
器 真实 运行 的 延 时 模型 进行 分 析 指 导 协 同 搜索 过 程 ， 为 了 对 
延 时 模型 的 准确 性 进行 验证 , 利用 Spinal HDL 设计 了 加 速 器 
模板 对 获取 的 数据 流 、 并 行 度 硬件 设计 参数 进行 仿真 测试 。 


1 ”多 层次 协同 搜索 方法 


1.1 问题 定义 
在 传统 的 神经 网 络 到 硬件 加 速 部 署 设计 过 程 中 ， 算 法 设 


化 处 理 , 保证 Score 在 0-100 的 范围 。a,6,7 为 比例 因 
据 多 次 调 参 后 获得 合适 的 比例 ， 本 文采 用 的 比例 分 别 
为 0.4,0.4,0.2. 
1.2 方法 概述 


| 练 、 协 同 搜 


牛 部 署 等 部 分 ， 如 图 1 Bp. SPOSUS(Single Path One 


Shot) 将 超 网 络 训练 和 搜索 分 开 进 行 ， 搜 索 过 程 是 采用 遗传 算 


法 进行 
的 沙漏 


出 最 优 
网 络 架 
构 的 有 
进行 修 


目标 是 


多 次 迭代 。 协 同 搜索 方法 的 输入 约束 主要 是 在 算法 端 
块 的 模型 、 中 间 压 缩 的 量化 方式 以 及 加 速 器 设计 的 数 
用 方式 和 并 行 度 ， 其 中 并 行 度 会 以 FPGA 的 综合 实现 
I DSP 数目 反映 出 来 。 搜 索 的 输出 是 目标 函数 的 评估 得 
的 网 络 模型 .量化 方式 .加 速 器 数据 流 和 并 行 度 参 数 。 


构 需 要 进行 重新 训练 、 量 化 、 推 理 ， 以 保证 该 网 络 结 
效 性 和 准确 性 。 而 加 速 器 设计 参数 则 会 在 加 速 器 模板 
改 参 数 以 获取 RTL(Register transfer level) 代 码 ， 最 终 


TE FPGA 实现 高 速 推 


超 网 络 量化 ] 


搜索 过 程 


Y 
, 实现 


图 1 多 层次 协同 搜索 方法 


Fig. 1 Multi-level co-exploration method 


超 网 络 构建 ] [TE 
i N 
超 网 络 训练 ] 
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整个 搜索 过 程 的 实现 是 先 对 超 网 络 的 沙漏 块 进行 编码 ， 
方便 使 用 遗传 算法 对 沙漏 块 结 构 完 成 交叉 、 变 异 等 遗传 操作 ， 
再 对 超 网 络 训练 、 量 化 ， 然 后 进行 搜索 ， 在 搜索 阶段 ， 根 据 
沙漏 块 的 编码 随机 采样 获得 候选 子 网 络 作为 初始 种 群 ， 将 量 
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22 量化 层面 

在 神经 网 络 压缩 方面 ， 有 量化 、 剪 枝 、 稀 玻 化 、 蒸 馏 等 
方式 ， 其 中 量化 是 最 为 常用 的 。 因 为 神经 网 络 每 一 层 的 数据 
分 布 都 不 一 样 ， 每 一 种 量化 方式 有 一 定 的 差异 ， 所 以 使 用 不 


化 前 的 候选 子 网 络 在 验证 集 进 行 推理 ， 同 时 将 使 用 不 同 量 


同 量化 方式 对 不 同 的 结构 进行 量化 可 能 出 现 不 同 的 结果 。 为 


方式 的 子 网 络 进行 推理 ， 获 取 量 化 前 、 后 的 准确 率 以 便 返 区 
到 目标 函数 进行 评估 ， 在 候选 子 网 络 中 最 优 的 子 网 络 会 被 遗 
传 算法 选取 出 来 作为 遗传 的 对 象 进行 下 一 轮 的 迭代 。 在 验证 
集 验证 的 同时 ， 硬 件 设计 会 采用 人 遍历 的 方式 进行 搜索 ， 将 延 
时 模型 评估 获得 最 低 延 时 返回 到 目标 函数 同时 获得 相应 的 硬 
件 设 计 参 数 。 通 过 将 量化 前 、 后 的 准确 率 和 预 估 延 时 ， 目 标 
函数 会 获得 相应 的 得 分 以 便 确保 该 子 网 络 结构 、 量 化 方式 、 
硬件 设计 参数 均 为 最 优 。 


LH 


NI 


En 


了 探索 最 好 的 量化 方式 ,本 文 量化 的 探索 空间 是 定点 和 整 型 。 
对 于 8 位 定点 型 量化 ,本 文采 用 式 (4) 对 整数 位 的 位 宽 分 别 是 
1、2、3 位 进行 探索 ， 其 中 m 表示 有 符号 二 进 制 补 码 ，b 表 
示 小 数位 宽 ，N 表示 量化 的 总 位 宽 。 


N-2 n 7 


m= Q2) | -2 lzw 1 十》 2 mn (4) 


例如 Fix8(2) 表 示 整 数位 有 2 br. 1 位 为 符号 位 ， 其 余 的 


于 超 网 络 训练 时 采用 权 值 共享 的 方式 ， 子 网 络 的 准确 
率 还 有 提升 的 空间 ， 所 以 当 获 得 了 目标 的 网 络 模型 ， 会 对 其 
结构 进行 重新 训练 、 量 化 、 验 证 等 ， 以 保证 获取 更 好 的 准确 
率 。 获 取 的 硬件 设计 参数 ， 会 调整 加 速 器 模板 的 参数 ， 获 取 
新 的 RTL 代码 之 后 进行 综合 、 实 现 等 后 续 过 程 。 
2 ”多 层次 协同 搜索 空间 定义 
2.1 算法 层面 

原始 的 沙漏 块 结构 如 图 2 所 示 , 每 一 个 小 块 都 是 残 差 块 ， 
残 差 块 操作 在 硬件 的 实现 较为 复杂 ， 并 且 沙 漏 块 的 每 一 条 文 
路 特征 融合 都 需要 额外 的 缓存 ， 因 此 在 支 路 的 特征 融合 方 盏 
和 特征 提取 的 操作 存在 优化 的 空间 。 


图 2 沙漏 块 的 原始 结构 趾 
Fig.2 Original structure of hourglass block! 

在 支 路 的 特征 融合 方面 ， 本 文 的 搜索 空间 有 三 种 选择 ， 
第 一 种 是 无 特征 融合 , 即 去 除 旁 路 分 支 ,不 保留 以 前 的 特征 ， 
第 二 种 是 无 卷 积 的 直接 融合 ， 即 没有 任何 卷 积 开销 的 快捷 方 
式 ， 第 三 种 是 原来 的 卷 积 特征 融合 ， 如 图 3 所 示 。 无 卷 积 特 
征 融 合 比 卷 积 特征 融合 减少 很 多 的 缓存 、 计 算 时 间 和 额外 的 
权重 参数 。 无 特征 融合 减少 缓存 时 间 最 多 。 在 操作 算 子 块 搜 
索 空 间 方 面 ， 原 来 的 残 差 块 需要 很 多 的 计算 和 缓存 时 间 ， 本 
文 尝试 用 深度 可 分 离 卷 积 块 蔡 换 以 减少 计算 和 缓存 的 开销 。 

为 了 方便 对 优异 的 沙漏 块 结构 进行 遗传 ， 这 里 对 沙漏 # 
在 加 速 器 的 计算 顺序 进行 编码 ， 融 合 方式 分 别 是 0,1,2， 操 作 
算 子 块 分 别 是 0,1， 例 如 原始 的 卷 积 特征 融合 其 对 应 为 2， 在 
原始 的 残 差 操作 块 编码 为 0， 所 以 原始 结构 的 编码 为 
[2,0,2,0,2,0,2,0,0,0,0,0,0]， 一 共 13 个 位 置 编 码 ， 而 图 3 则 表 
示 [2,0,1,0,0,0,2,0,0,0,0,0,0]。 


1 " 卷 积 特征 融合 


3 BERTHA 


—— 3, 无 特征 融合 


特征 融合 


图 3. 特 征 融合 搜索 空间 
Fig.3 Search space of feature fusion 


是 小 数位 ， 如 图 4 所 示 。 


1bit 2 bits 5bits 


图 4 Fix8C) 的 定点 数 表 示 
Fig.4 The fixed point representment of Fix8(2) 
另 一 种 方式 是 8 位 整 型 的 方式 进行 探索 ， 主 要 为 如 下 式 
(5)(6) 所 示 。 


f=S(g—2) (5) 
q= round ($ +z) (6) 


其 中 : fOJPREGRO S 表示 缩放 系数 ，d 为 量化 后 整数 ，Z 表 
2.3 硬件 设计 层面 

CNN 加 速 器 设计 需要 根据 FPGA 的 资源 情况 设计 较为 
合理 的 数据 流 复 用 方式 和 并 行 度 ， 因 为 数据 流 和 并 行 度 都 会 影 
响 加 速 器 性 能 ， 如 果 数 据 流 不 适合 可 能 造成 额外 的 延 时 开销 ， 
如 果 并 行 度 过 大 可 能 资源 不 够 ， 并 行 度 过 小 造成 资源 浪费 。 

1) 数据 复 用 方式 

数据 流 是 指 卷 积 计算 的 顺序 ， 主 要 分 为 输出 复 用 
(Output Reuse, OR)、 输 入 复 用 (Input Reuse, IR) 和 权 值 复 用 
(Weight Reuse，WR)P0， 不 同 数据 流 在 加 速 器 表现 为 计算 
的 顺序 不 同 , 每 一 种 计算 的 顺序 有 不 同 的 运行 时 间 。 因此 ， 
在 加 速 器 设计 需要 根据 FPGA 的 资源 情况 确定 其 最 优 的 数 
据 流 。 其 中 输出 复 用 伪 代 码 如 下 算法 1 所 示 ， 相 应 的 符号 
注解 如 表 1 所 示 。 


表 1 部 分 符号 解释 


Tab.1 Explanation of Some notations 


符号 解释 
Ic, Oc. Oh, Ow 输入 通道 ， 输 出 通道 、 长 、 宽 
TicToc. Tox, Toy, KhKw 输入 通道 ， 输 出 通道 、 长 、 宽 分 块 、 卷 积 核 长 、 宽 
Pic ,Poc, Pox, Poy 输入 通道 ， 输 出 通道 、 长 、 宽 并 行 度 、 
x,ym,n 等 循环 变量 


算法 1: ”输出 数据 流 复 用 (OR) 
输入 : IFM[Ic][iw][ih], Weight[Ic][Oc][Kw][Kh] 
输出 : OFM[Oc][Oh][Ow] 

for(y=0;y<0h;y+=Toh){ 


for(x20;x«Ow;x*-Tox)( 


1 
2 
3 for(mz0;m«Oc;me-Toc)( 
4 for(nz0;n«Ic;ne-Tic)( 
5 // 从 DDR 读数 据 
2) 并 行 度 
行 度 是 指 在 卷 积 计 算 时 可 以 进行 多 少 个 并 行 的 计算 ， 


$ 
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即 表 示 同 时 计算 多 少 个 乘法 。 并 行 计算 的 方式 可 以 在 
例如 卷 积 核 、 输 入 输出 通道 ， 
在 上 述 三 种 数据 流下 ，Pic、 
的 并 行 计算 ，Pox、Poy 则 表示 卷 积 
宽 方向 的 特征 点 ， 不 司 
的 计算 时 间 。 
5 所 示 ， 表 示 输 入 通道 的 
的 计算 过 程 中 ， 需 要 对 卷 积 核 与 输入 特征 图 
累加 后 得 到 一 个 输 


维度 展开 ， 


特征 
出 不 一 样 


输出 特征 图 
对 应 通道 
在 FPGA 上 实现 是 
此 
基于 卷 积 计算 的 原理 进行 ， 这 有 


用 定稿 


图 的 长 、 


KHER, F: 


一 种 基于 沙漏 网 络 的 多 层次 协同 搜索 方法 


Poc 分 别 


特征 图 


窗口 


如 图 


相 乘 


的 


的 并 行 计算 ， 


Ir 


行 度 高 其 计 


算 延 时 可 能 就 少 。 


| 
| Li 


多 个 乘法 器 
其 


E 不 同 的 
到 的 长 宽 等 等 。 

对 应 于 输入 和 输出 i 
即 输 
并 行 度 组 合 也 会 表现 


m 


EP EE (uk 


行 计算 ， 即 在 完成 


他 维度 的 


特征 点 ， 而 该 过 程 
行 计算 完成 的 , 因 
行 都 是 


输入 特征 图 


有 不 再 


图 5 输入 通道 并 行 计算 


Fig.5 The parallel computing of input channel 


2.4 多 层次 协同 搜索 空间 


经 过 上 


如 下 表 2 所 示 。 


表 2 多 


看 的 分 析 , 这 里 总 结 了 本 文 多 层次 协同 搜索 的 


层次 协同 搜索 空间 


Tab.2 Search space of multi-level co-exploration 


空间 ， 


变量 


算法 端 搜索 空 


间 


量化 方法 搜索 空间 硬件 设计 搜索 空间 


残 差 卷 积 块 
深度 可 分 离 卷 积 
无 特征 
支 路 融合 操作 ”直接 特征 
x 


入 村 征明 H 


算 子 块 


融合 
融合 


融合 


Int8 
Fix8(1) 
Fix8(2) 
Fix8(3) 


数据 流 总 并 行 度 


IR 
OR 


<=1600 


WR 


3 


确 


EL 


BH 


和 


CD 


Los chip 


访问 模式 。 


延 时 模型 
为 了 准 


本 ， 比 简单 地 用 


和 全 面 。 在 Leue 的 建 模 中 ， 本 文 考虑 了 
际 计 算 性 能 低 于 峰值 计算 性 
虑 了 不 同 数据 流下 的 对 
有 不 同 资源 约束 、 数 据 流 


致 的 实 


的 建 模 中 ， 
该 模型 适用 


网 


确 的 评估 协同 搜索 的 结果 好 坏 ， 本 文 建立 了 
一 个 接近 加 速 器 真实 运行 的 延 时 模型 ， 
时 模型 充分 考虑 了 计算 、 片 上 和 片 外 数据 访问 的 时 间 成 
络 模型 参数 和 计算 量 估计 延 时 更 加 ; 


如 上 面 式 (2)。 延 


充分 考 


于 PE 利用 


能 的 问题 ; 


于 


省 述 具 


并 行 性 的 普通 


.1 计算 延 时 
计算 延 时 表示 计 
络 计 算 的 90% 以 上 。 


度 和 利 


CNN 加 速 器 的 延 时 估计 。 


| 算 整 个 网 络 所 需要 
计算 延 时 可 以 表示 为 计算 量 除 以 总 并 


的 时 间 ， 


j 率 的 乘积 ， 如 式 (7) 所 示 ， 
式 (8) 所 示 。PE 的 利用 率 可 


La. 一 


以 表示 为 
总 计算 量 


N 


并 行 度 XPERI 


ES 


O,XO,XI,XO,x K XK, 


Loa ES 


layer 


PX Poy X Pie X Poe X PE Utility 


PET 


其 中 卷 积 


中 普通 卷 积 的 计算 量 
式 (9)。 


(7) 


(8) 


ChinaXiv 合 作 期 刊 
第 39 卷 第 8 期 


PE,uuty — LE ODE. A - 
0, X0,XILX0.X Ku X Ky 

(0, + O,96P..) X (O, + O.96P,,) X (I. + L96P.) X (0. + O.96P..) 
3.2 片上 访 存 延 时 

片上 访 存 延 时 是 指 在 片上 缓冲 区 与 计算 阵列 之 间 的 搬运 时 
间 ， 由 于 在 本 文 的 加 速 器 设计 中 采用 是 流水 线 方式 设计 ， 片 上 
数据 搬运 时 间 会 隐藏 在 网 络 计算 当中 ， 所 以 Lo- sa 为 零 。 
3.8 片 外 访 存 延 时 

片 外 访 存 延 时 表示 从 DDR. 到 片上 缓存 的 读 和 写 数据 的 
时 间 , 更 有 具体 是 某 种 数据 流下 的 总 数据 量 M"” 乘 以 位 宽 DW 
除 以 总 线 带宽 BW, 如 式 (10) 所 示 。 由 于 FPGA 的 片上 容量 有 
限 ， 单 层 的 数据 可 能 超过 片上 缓冲 区 的 大 小 ， 因 此 数据 应 该 
被 分 割 成 更 小 的 块 进行 缓冲 。 在 不 同 的 数据 流下 ， 首 先 重 用 
某 种 类 型 的 数据 , 而 其 他 类 型 的 数据 分 块 需要 重复 读 取 或 写 。 
所 以 每 一 种 数据 流 都 有 不 一 样 的 访 存 数量 。 
M*U" xD 了 _ 

BW 


Y Mi + Med" + Mon ) X DW 
BW 


(9) 


Lott- chip 


(10) 


4 ”加速 器 设计 


为 了 验证 延 时 模型 的 准确 性 和 整个 多 层次 协同 设计 
的 有 效 性 ， 本 文采 用 Spinal HDL 这 种 新 颖 的 硬件 描述 语 
言 去 设计 了 硬件 的 CNN 加 速 器 模板 。Spinal HDL 类 似 
Verilog, 采用 硬件 的 思想 , 而 不 像 高 层次 综合 更 多 的 考虑 
算法 层面 而 忽略 硬件 设计 的 细节 。 由 于 在 硬件 端 搜 索 加 
入 了 很 多 硬件 参数 ， 因 此 本 文 的 CNN 加 速 器 模板 实现 了 
不 同比 特 位 、 并 行 度 参数 化 , 从 而 可 以 使 得 整个 模板 可 以 
通过 不 同 的 测试 脚本 用 来 测试 不 同 的 硬件 参数 组 合 。 测 
试 延 时 的 获取 是 先 获取 对 应 子 网 络 结构 的 配置 指令 ， 完 
成 每 一 层 的 参数 配置 ， 再 通过 对 加 速 器 的 控制 模块 状态 
机 的 读 、 写 过 程 进行 波形 采样 获取 周期 数 。 
整个 加 速 器 结构 包含 以 下 几 部 分 : 控制 模块 内 部 包含 
制 的 状态 机 可 以 控制 计算 、 读 、 写 等 过 程 ， 本 文 设 计 了 
同 的 控制 器 来 支持 搜索 空间 中 的 不 同 数据 流 。 访 存 模 块 
片 内 和 片 外 访 存 的 桥梁 ， 可 以 将 片上 的 数据 写 回 DDR, 
DDR 数据 送 到 片上 缓存 。 片 上 缓存 模块 实现 数据 和 权 
的 缓存 ， 分 为 两 个 数据 Buffer 和 一 个 权 值 Buffer。 重 排 
模块 实现 在 缓存 数据 在 输送 到 计算 阵列 之 间 的 重新 排 布 。 
计算 阵列 采用 层 间 复 用 模式 设计 ， 每 一 层 重复 利用 计算 阵 
列 , 包含 三 个 维度 的 并 行 (输入 通道 , 卷 积 窗口 和 输出 通道 ) 
以 适 配 硬件 端 搜索 的 并 行 度 设置 ， 可 以 完成 卷 积 、 池 化 和 
和 矩阵 相 加 等 计算 操作 ， 如 图 6 所 示 。 


FPGA 加 速 路 


区 X gb HE 


— 


图 6 加 速 器 结构 
The structure of accelerator 
5 实验 


5.1 实验 设置 
本 文 的 实验 环境 配置 如 下 : Ubuntu 16.04 LST 64 位 系统 ， 
PyTorch1.71 深度 学 习 框 架 , NVIDIA GTX 1080ti GPU。 本 文采 
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用 的 数据 集 是 MPII 数据 集 , 包含 


评测 指标 。 沙 漏 块 堆 受 数 为 1， 采 用 


陈 桂 荣 ， 等 : 


含 25K 张 图 像 , 采用 PCKh(20.5 


RMS 作为 网 络 训练 时 的 优 


化 器 ， 学 习 率 是 1e-3， 超 网 络 训练 220 轮 ， 其 中 遗传 算法 搜索 


20 次 。 利 用 的 FPGA 


资源 约束 。 基于 资源 利 | 
在 搜索 实验 中 ，DSP IR 


AE 合 H 是 Xilinx 


IE SUE 


Zynq 系列 中 的 72045 作为 


出 现 难以 布线 的 情况 的 考虑 ， 
设置 为 800 个 ， 片 上 缓冲 


区 总 大 小 设 


置 为 1.312MB , 两 个 数据 Buffer 为 S12KB, 权 值 Buffsr 为 288KB。 


5.2 ”实验 结果 


a) 传 统 加 速 方法 。 传 统 加 速 方 法 是 基于 固定 算法 结构 ， 
来 考虑 硬件 设计 的 加 速 方 法 ， 因 此 本 文 针 对 原始 沙漏 网 络 结 


构 进 行 数据 流 、 并 行 度 硬件 参数 和 量化 方式 进行 
行 度 与 延 时 的 关系 , 可 以 知道 在 相同 数据 流下 ， 
青 况 下 延 时 最 低 , 而 并 非 在 最 大 并 行 度 


图 7 是 


总 并 行 度 为 的 1 
1600 的 情况 下 ， 延 时 最 低 。 这 也 体现 出 


设计 搜索 。 


搜索 的 意义 所 在 ， 


非 并 行 局， 其 延 
数 等 契 合 。 图 8 是 数 
行 度 下 ， 针 对 于 沙漏 
表 3 为 不 同 量化 方式 
方式 的 每 个 关键 点 的 


Int8 损失 最 少 , 仅 为 0.2。 


时 就 越 低 ， 


网 络 输出 复 / 


需要 与 
据 流 与 延 时 的 关系 ， 可 
(OR) 方 式 


的 关键 点 检 疯 
检测 结果 ， 


漏网 络 结构 量化 后 各 个 关节 点 的 检测 准 


采 上 不 同 量 比方 式 对 原始 沙 


体 卷 积 计算 的 通道 
以 知道 在 相同 


结果 ， HJ 


以 知道 各 种 量化 


确 率 有 所 下 降 ， 其 中 


于 脚 躁 是 比较 容易 被 遮挡 


的 部 分 ， 


即 躁 的 检测 效果 最 差 ， 量 化 后 其 检测 准确 率 下 降 最 多 。 
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图 8 数据 流 与 延 时 的 关系 


Fig.8 Relationship between dataflow and latency 
A3 不 同 量化 方式 的 关键 点 检测 结果 


Tab.3 Key point estimation results of different quantization methods 


方法 k B FN 手腕 BRW Bm 脚 躁 PH 
None 95.3 94.0 85.6 806 849 788 742 8492 
Int8 95.5 940 854 801 $849 781 73.99 84.69 
Fix8(1) 95.4 93.5 843 782 847 768 714 83.61 
Fix8(2) 93.6 90.1 810 743 799 71.6 65.1 79.62 
Fix8(3) 80.9 70.0 45.7 4443 549 35.7 289 51.62 


针对 沙漏 网 络 原 
所 示 ， 其 中 包括 量 
流 和 并 行 度 等 。 
测 值 ， 测 试 延 时 是 


i754 


st 


预测 延 时 


吉 构 搜索 结果 的 前 五 名 ， 如 表 4 


化 前 、 后 的 准确 率 、 参 数量 
是 指 建立 的 延 时 
指 经 过 加 速 器 模板 仿真 测试 得 


时 ， 仿 真 测试 主要 是 为 了 验证 
预测 的 时 间 延 时 
4.02%, 足以 表明 延 时 模型 的 
千 统 加 速 方法 的 搜索 实验 中 ， 并 行 度 


经 过 多 次 重复 测试 得 到 ， 
延 时 平 


“ 均 误 差 只 有 


在 表 4 可 以 知道 


延 时 模型 


以 及 数据 
模型 获取 的 预 
到 的 延 


建 模 的 正确 性 。 


和 测试 的 时 间 


A A 


组 合 为 [Pox, Poy, Pic, Poc]=[8,3,8,8], 数 据 流 复 用 方式 为 
图 7 总 并 行 度 与 延 时 的 关系 输出 复 用 OR. 量化 方式 为 Int8, 延 时 最 低 , 准确 率 损失 
Fig.7 Relationship between total parallelism and latency 最 少 ， 性 能 最 优 。 
表 4 沙漏 网 络 原始 结构 的 搜索 结果 
Tab.4 Search results of the original structure of hourglass network 
排名 ”原始 准确 率 量化 后 准确 率 ”量化 方式 参数 量 /MB 复 用 方式 ”并行 度 组 合 DSP 数目 /个 预测 延 时 /周期 数 测试 延 时 /周期 数 
Ist 84.92 84.69 Int8 3.40 OR [8. 3,8, 8] 768 1.250*10^7 1.284*10^7 
2nd 84.92 84.69 Int8 3.40 OR [8, 4, 8, 6] 768 1.256*10^7 1.290*10^7 
3rd 84.92 84.69 Int8 3.40 OR [6, 8, 8, 4] 768 1.257*10^7 1.291*10^7 
4th 84.92 84.69 Int8 3.40 OR [8. 8, 4, 6] 768 1.253*10^7 1.330*10^7 
5th 84.92 84.69 Int8 3.40 OR [8.12.4, 4] 768 1.281*10^7 1.359*10^7 
b) 多 层次 协同 搜索 结果 表 6 中 的 传统 方法 最 优 和 平均 分 别 是 指 表 4 的 传统 加 速 
针对 沙漏 模块 重新 构建 了 超 网 络 进行 训练 ， 采 用 多 层次 ”方法 最 优 结 果 和 前 五 名 的 平均 结果 ， 协 同 搜索 最 优 和 平均 是 


协同 搜索 方法 进行 搜索 ， 
了 > 漏 块 编码 的 网 络 结构 、 


其 搜索 结果 的 前 五 名 如 下 表 5 所 示 ， 
量化 


前 、 后 的 准确 率 、 参 数 


指 表 5 中 的 最 优 结果 和 前 五 名 平 1 
ES EU 109258 


方法 比 文献 [1]1 


入 结果 。 就 平均 而 言 ， 本 文 
Wb f 83.3% 的 参数 ， 准 确 


量 、 测 试 延 时 等 。 可 以 看 到 ， 最 优 的 沙漏 块 结构 为 率 只 下 降 了 0.69; 比 传统 加 速 方法 平均 减少 了 33.3% 参 数量 ， 
[0,1,1,0,1,1,2,0,1,0,0,1,0]， 其 量化 后 的 准确 率 为 84.10, 参数 量 为 ” 准确 率 只 下 降 了 0.46， 网 络 推理 的 测试 总 延 时 下 降 22.196, 
2.23MB。 由 于 在 量化 方式 、 数 据 流 、 并 行 度 的 搜索 方面 与 传统 。 在 沙漏 央 的 测试 延 时 下 降 了 67.8%。 与 其 他 姿态 识别 算法 相 
方法 一 样 采 用 遍历 的 方式 进行 ， 所 以 在 这 些 参数 的 搜索 基本 一 ” 比 ， 本 文 的 参数 量 是 文献 [7] 的 0.83%， 是 文献 [8] 的 2%， 是 
致 。 就 平均 而 言 ， 多 层次 搜索 方法 的 原始 准确 率 为 84.29, 量化 ”文献 [9] 的 0.9%。 本 文 工 作 在 准确 率 方 面 可 能 与 优秀 的 算法 存 
后 准确 率 也 有 84.23， 损 失 很 小 ， 并 且 参 数 只 有 2.27MB。 至 于 ”在 一 定 的 差距 ， 但 是 在 参数 量 和 网 络 结构 复杂 度 方面 有 一 定 
测试 延 时 的 对 比 ， 会 在 后 面 进行 。 的 优势 ， 更 能 适 配 到 FPGA 进行 加 速 推理 。 
c) 实验 结果 对 比 综 上 所 述 ， 本 文 的 协同 搜索 方法 在 减少 运行 延 时 方 
于 本 文 工 作 是 基于 沙漏 网 络 进行 优化 的 ， 因 此 最 直接 面 以 很 低 的 准确 率 损 失 ， 表 现 出 比较 好 的 性 能 。 总 体 而 
的 性 能 对 比 是 针对 原始 结构 ， 即 文献 [1] 中 的 堆 垒 块 为 1 时 的 结 ” 言 ， 多 层次 协同 搜索 比 传 统 的 设计 过 程 具有 更 好 的 加 速 
果 以 及 传统 针对 原始 结构 的 加 速 方法 进行 比较 ， 如 表 6 所 示 。 效果 。 
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表 5 多 层次 协同 搜索 结 
Tab.5 Search results of multi-level co-exploration 

网 络 结构 排名 原始 准确 率 ”量化 后 准确 率 量化 方式 ” 复 用 方式 ”并行 度 组 合 ”参数 量 /MB 整个 网 络 延 时 /周期 数 沙漏 模块 延 时 /周期 数 
[0,1,1,0,1,1,2,0,1,0,0,1,0] 84.21 84.10 Int8 OR 8,3,8,8] 2:25 1.009*10^7 1.115*10^6 
[0.0,1,0,1,0,2,0,1,1,0,0,0] 84.87 84.85 Int8 OR 8,3,8,8] 2.50 1.050*10^7 1.541*10^6 
[0.1,1,0,1,1,2,0,1,0,1,1,0] 83.96 83.92 Int8 OR 8,3,8,8] 2.09 1.006*10^7 1.084*10^6 
[0,0,1,1,0,0,2,1,0,0,0,1,0] 84.47 84.43 Int8 OR 8,3,8,8] 2.37 1.036*10^7 1.385*10^6 
[0.1,1,0,1,1,2,0,1,1,0,1,0] 83.92 83.87 Int8 OR 8,3,8,8] 2.09 1.006*10^7 1.089*10^6 
平均 84.29 84.23 Int8 OR 8,3,8,8] 227 1.021*10^7 1.243*10^6 


表 6 实验 结果 对 比 


Architectures using Reinforcement Learning [J]. 2016. 


Tab.6 Comparison of experimental results [11] Zoph B, Vasudevan V, Shlens J, et al. Learning Transferable 
比较 对 象 ”参数 量 /MB 准确 率 总 延 时 /周期 沙漏 块 延 时 /周期 Architectures for Scalable Image Recognition [J]. 2017. 
文献 [1] 13.60 84.92 <'， [12] Pham H, Guan M Y, Zoph B, et al. Efficient Neural Architecture Search 
传统 方法 最 优 3.40 84.69 1.250*10^7 3.868*10^6 via Parameter Sharing [J]. 2018. 
传统 方法 平均 3.40 84.60 1.311*10^7 4.046*10^6 [13] Cai Han, Yang Jiacheng, Han Song, et al. Path-Level Network 
协同 搜索 最 优 2.23 84.10 1.009*10^7 1.115*10^6 Transformation for Efficient Architecture Search. In ICML, 2018. 3 
协同 搜索 平均 2.27 84.23  1.021*10^7 1.243*10^6 [14] Brock A, Lim T, Ritchie J M, et al. SMASH: One-Shot Model 
" Architecture Search through HyperNetworks [J]. 2017. 
6 结束 语 [15] Guo Zichao, Zhang s Haoyuan, et al. Single Path One-Shot 
本 文 针 对 姿态 识别 的 沙漏 网 络 ， 将 沙漏 块 的 结构 、 量 化 Neural Architecture Search with Uniform Sampling [J]. 2019. 
方式 和 硬件 设计 结合 ， 以 运行 延 时 和 准确 率 作 为 目标 ， 建 立 [16] Courbariaux M, Hubara I, Soudry D, et al. Binarized Neural Networks: 
了 一 个 接近 FPGA 加 速 器 真实 运行 的 延 时 模型 ， 提 出 了 多 层 Training Deep Neural Networks with Weights and Activations 
次 协同 搜索 的 方法 ， 并 经 过 设计 的 可 配置 的 加 速 器 模板 验证 Constrained to+1 or-1 [J]. 2016. 


其 有 效 性 。 最 终结 果 显示 ， 这 种 协同 设计 方法 在 参数 量 和 延 
时 方面 都 优 于 传统 的 设计 方法 ， 只 有 很 少 的 准确 率 下 降 。 Networks for Efficient Integer-Arithmetic-Only Inference [J]. 2017. 

该 方法 对 解决 沙漏 网 络 算法 和 硬件 不 匹配 的 问题 有 一 定 效果 。 [18] Wang Kuan, Liu Zhijian, Lin Yujun, et al. HAQ: Hardware-Aware 
当然 该 工作 仍 有 改进 空间 ,例如 考虑 不 同 沙漏 块 的 数目 ， Automated Quantization With Mixed Precision [C]// 2019 IEEE/CVF 
卷 积 通道 数 等 等 ， 可 以 加 入 到 搜索 空间 获取 更 高 准确 率 的 网 
络 的 同时 保持 更 低 的 延 时 
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